# PATENT ABSTRACTS OF JAPAN

(11)Publication number:

2003-223360

(43) Date of publication of application: 08.08.2003

(51)Int.Cl.

G06F 12/08 G06F 12/12

(21)Application number: 2002-019905

(71)Applicant: HITACHI LTD

(22)Date of filing:

29.01.2002

(72)Inventor: TAWARA YASUHIRO

# (54) CACHE MEMORY SYSTEM AND MICROPROCESSOR

#### (57)Abstract:

PROBLEM TO BE SOLVED: To provide a cache memory control technology for improving through- put by reducing any unnecessary data transfer between a main memory and a cache memory, and reducing power consumption accompanying the data transfer, and relaxing the congestion of paths of the data transfer. SOLUTION: This cache memory system in which a main CPU is connected with a main memory constituted of an By ROM and an RAM through an external bus is constituted of 4-way set associative caches where each Way has Tag 45. Valid bit 46, Dirty bit 47, and data block 48. At the time of driving cache entry out of the cache, when the Dirty bit 47 is set as 1, the data of the data block 48 are written in the main memory, and when the Dirty bit 47 is cleared as 0, the data of the data block 48 are not written in the main memory but discarded.



# LEGAL STATUS

[Date of request for examination]

[Date of sending the examiner's decision of rejection]

[Kind of final disposal of application other than the examiner's decision of rejection or application converted registration]

[Date of final disposal for application]

[Patent number]

[Date of registration]

[Number of appeal against examiner's decision of rejection]

[Date of requesting appeal against examiner's decision of rejection]

[Date of extinction of right]

#### (19)日本国特許庁(JP)

# (12) 公開特許公報(A)

(11)特許出願公開番号 特開2003-223360 (P2003-223360A)

(43)公開日 平成15年8月8日(2003.8.8)

| (51) Int.Cl.' | <b>職別記号</b>               | · F1                     | テーマコード(参考)                |  |  |  |
|---------------|---------------------------|--------------------------|---------------------------|--|--|--|
| G06F 12/0     | 8 507                     | G 0 6 F 12/08            | 507F 5B005                |  |  |  |
|               | 501                       |                          | 5 0 1 C                   |  |  |  |
|               | 5 5 9                     |                          | 5 5 9 E                   |  |  |  |
|               |                           |                          | 5 5 9 Z                   |  |  |  |
|               | 5 6 1                     |                          | 5 6 1                     |  |  |  |
|               | 審査請求                      | : 未請求 請求項の数7             | OL (全 14 頁) <b>最終頁に続く</b> |  |  |  |
| (21)出願番号      | 特顧2002-19905(P2002-19905) | (71)出顧人 00000510<br>株式会社 |                           |  |  |  |
| (22)出願日       | 平成14年1月29日(2002.1.29)     |                          |                           |  |  |  |

(72)発明者 田原 康宏

東京都小平市上水本町五丁目20番1号 株

式会社日立製作所半導体グループ内

(74)代理人 100080001

弁理士 筒井 大和

Fターム(参考) 5B005 JJ11 KK12 MM01 NN45 PP03

**QQ05** 

### (54) 【発明の名称】 キャッシュメモリシステムおよびマイクロプロセッサ

## (57)【要約】

【課題】 主記憶装置とキャッシュメモリとの間の不要なデータ転送を削減して、データ転送に伴う電力消費を削減し、データ転送の経路の混雑を緩和してスループットを向上させることができるキャッシュメモリ制御技術を提供する。

【解決手段】 メインCPUと、ROMとRAMからなる主記憶装置とが外部バスを通じて相互に接続されているキャッシュメモリシステムであって、4-wayセットアソシエイティブキャッシュからなり、各WayはTag45、Validビット46、Dirtyビット47、データブロック48を持つ。キャッシュエントリをキャッシュから追い出すときに、Dirtyビット47が1にセットされていたらデータブロック48のデータを主記憶装置に書き込み、0にクリアされていたらデータブロック48のデータを主記憶装置に書き込まないで捨ててよい。



#### 【特許請求の範囲】

【請求項1】 ライトバック方式のキャッシュメモリを有し、

1

前記キャッシュメモリ上に確保した領域のダーティビットを操作する命令を実行可能とすることを特徴とするキャッシュメモリシステム。

【請求項2】 請求項1記載のキャッシュメモリシステムにおいて、

前記命令はメモリ解放命令であり、このメモリ解放命令 のニモニックとオペランドは、

MREL Rn, IMM

Rn:レジスタ名

IMM: 所定のビット数の即値

であることを特徴とするキャッシュメモリシステム。

【請求項3】 請求項1記載のキャッシュメモリシステムにおいて、

前記命令はダーティビットクリア命令であり、このダー ティビットクリア命令のニモニックとオペランドは、

DCBDC @Rn

Rn: はレジスタ名

であることを特徴とするキャッシュメモリシステム。

【請求項4】 請求項2または3記載のキャッシュメモリシステムにおいて、

前記Rn:レジスタ名は、スタック領域に動的に確保したメモリ領域を解放するために使用可能なレジスタであることを特徴とするキャッシュメモリシステム。

【請求項5】 請求項2または3記載のキャッシュメモリシステムにおいて、

前記Rn:レジスタ名は、ヒープ領域に動的に確保した メモリ領域を解放するために使用可能なレジスタである 30 ことを特徴とするキャッシュメモリシステム。

【請求項6】 請求項1記載のキャッシュメモリシステムにおいて、

前記命令の実行を指示するプロセッサと、主記憶装置とをさらに有し、

前記プロセッサの指示に基づいて前記主記憶装置内の特定のアドレスが指す領域を確保して所定のプログラム処理を行い、

前記確保した領域を前記キャッシュメモリ上に確保して使用した後に、前記プロセッサの指示により前記主記億 40 装置に確保した領域を解放するとき、前記キャッシュメモリ上に確保した領域のダーティビットをクリアするように制御することを特徴とするキャッシュメモリシステム

【請求項7】 ライトバック方式のキャッシュメモリを有し、

前記キャッシュメモリ上に確保した領域のダーティビットを操作する命令を実行可能とすることを特徴とするマイクロプロセッサ。

#### 【発明の詳細な説明】

#### [0001]

【発明の属する技術分野】本発明は、キャッシュメモリ制御技術に関し、たとえばマイクロプロセッサ、マイクロコンピュータ、マイクロコントローラのキャッシュメモリなどを有するキャッシュメモリシステムにおいて、特にダイナミックに確保したメモリ領域を解放するときのキャッシュメモリ制御方式に適用して有効な技術に関する。

#### [0002]

【従来の技術】本発明者が検討したところによれば、キャッシュメモリ制御技術については、たとえば特開平11-338772号、特開平4-268638号、特開平4-264641号、特開平4-188326号、特開平6-28253号、特開平9-231133号の各公報に記載される技術などが挙げられる。

【0003】前記公報の技術においては、主記憶装置に ダイナミックに確保した領域をキャッシュメモリのエン トリとして読み込んだ状態で、主記憶装置の当該領域を 解放したときに、当該キャッシュエントリのValid 20 ビットをクリアすることにより当該キャッシュエントリ を無効にしている。

#### [0004]

【発明が解決しようとする課題】ところで、前記のようなキャッシュメモリ制御技術について、本発明者が検討した結果、以下のようなことが明らかとなった。以下において、本発明者が本発明の前提として検討した技術を、図10~図12を用いて説明する。図10はスタックの使用方法、図11はキャッシュの状態、図12はINDEXが0xA8のキャッシュエントリ、をそれぞれ示す説明図である。

【0005】 [スタックの一般的使い方の説明:図10] 使用前のスタックポインタSPは、SP=0xFE DCBA90という値を持つと仮定する。0xは、次に続く文字列が16進数であることを示す接頭辞である。スタックに0x10バイトの領域を確保するときは、SP $\leftarrow$ SP-0x10

を実行する。すると、SP=0xFEDCBA80となる。

【0006】ユーザ旧SP=0xFEDCBA90と、 現SP=0xFEDCBA80との間にある0x10バイトのメモリ領域が使用可能となる。たとえば、

(SP+0) 番地にデータ0x01234567、

(SP+4) 番地にデータ0x89ABCDEF、

(SP+8) 番地にデータ0x01234567、

(SP+12)番地にデータ0×89ABCDEF、 を書き込む。これらのデータが不要になり、もはやこれ らのデータのためにメモリ領域を確保しておく必要がな くなった時に、

 $SP \leftarrow SP + 0 \times 10$ 

50 を実行する。すると、SPは旧SPの値に戻り、確保さ

れた0x10バイトのメモリ領域は解放される。

【0007】スタック用メモリ領域のうち、SPより若いアドレスにあるメモリ領域は未使用で解放されているメモリ領域である。スタック用メモリ領域のうち、SPよりアドレスが大きいメモリ領域は既に確保されているメモリ領域である。

【0008】 [ライト時のキャッシュ動作:図11]図 11は、(SP+4)番地、つまり0xFEDCBA8 4番地にデータ0xFFEEDDCCを書き込んだ後の キャッシュの状態を示している。

【0009】書き込むアドレス0xFEDCBA84がADDRESS60として扱われ、ADDRESSのMSB側から20ビットはTAG61、次の8ビットはINDEX62、最後の4ビットはOFFSET63に分解して扱う。Way J64のINDEX=0xA8のエントリが本書き込み前にInvalid状態(ValidビットV=0)となっていて、Way Jが本書き込みのために選ばれたと仮定する。本エントリでV=0のとき、Tag、Dirtyビット(Dビット)、データブロックには不定値が入っているが、本書き込みによりTagに0xFEDCB、Vビットに1、Dビットに1、データブロックのオフセットがOFFSET=4の位置から4バイトにデータ0xFFEEDDCCが書かれる。

【0010】本説明では、ライトバック方式のキャッシュメモリを仮定しているため、主記憶装置とキャッシュエントリのデータブロックとのコヒーレンシがとれない場合に、Dビットを1にセットする。本データブロックの残りの部分にはライトアロケート機能により、主記憶装置の対応するアドレスからデータをリードする。この30ときの状態が図11である。

【0011】 [本発明の前提技術の具体的な説明:図12] 本発明の前提技術では、

 $SP \leftarrow SP + 0 \times 10$ 

で、スタックの0×10バイトのメモリ領域を開放すると同時に、解放したメモリ領域が割り付けられているキャッシュエントリのValidビット (Vビット)を0にクリアして1nvalidにしている。仮に、Vビットをクリアしない場合、本キャッシュエントリがLRUアルゴリズムによってキャッシュの外に追い出されると40きに、Dビットが1ならばデータブロックの内容が主記憶装置に書き戻される。しかし、本来このデータブロックの内容は既に解放された領域のデータなので、主記憶装置に書き戻しても再度利用されることはなく、書き戻しば無駄である。従って、書き戻しが発生しないようにVビットをクリアすることにより、無用な書き戻しが発生しないようにしていた。当該キャッシュエントリを1nvalidにした状態を図12(a)に示す。

【0012】 [本発明の前提技術の課題] 前述した本発明の前提技術の課題は、ライトアロケート方式のキャッ 50

シュメモリにおいて、一度解放した領域と同一のアドレス範囲を再度確保した場合に露呈する。本発明の前提技術では、解放したときにValidビットをクリアするので、当該キャッシュエントリが無効になり、タグやデータを失う。同じアドレス範囲を再度確保して最初にむき込んだときに、タグが失われているので、新たにキャッシュエントリを割り付ける必要がある。ライトアロケート方式に従うと、書き込んだデータを除くキャッシュエントリのデータを主記憶装置からキャッシュエントリに読み込む。このデータ転送により電力を消費したり、データ転送の経路を混雑させて性能が劣化することが、課題として考えられる。この課題を克服することが本発明の目的である。

【0013】たとえば、0×FEDCBA80から始まる16バイトのスタック領域を解放したときに、本発明の前提技術により図12(a)のように当該キャッシュエントリをInvalidにしたと仮定する。次に、0×FEDCBA84番地に0×BBBBAAAAという値を書き込み、同じWayにアロケートされたと仮定すると、図12(b)の状態になる。このとき、当該データブロックのライトした4バイトデータを除く部分は主記憶装置から読み込まれる。この読み込みにより消費される電力を削減することと、この読み込みによるデータを転送する経路の混雑をなくし、スループットを向上することが本発明の目的である。

【0014】すなわち、本発明の目的は、主記憶装置とキャッシュメモリとの間の不要なデータ転送を削減して、データ転送に伴う電力消費を削減し、データ転送の経路の混雑を緩和してスループットを向上させることができるキャッシュメモリ制御技術を提供することにある。

【0015】本発明の前記ならびにその他の目的と新規な特徴は、本明細書の記述および添付図面から明らかになるであろう。

[0016]

【課題を解決するための手段】本願において開示される 発明のうち、代表的なものの概要を簡単に説明すれば、 次のとおりである。

【0017】本発明によるキャッシュメモリシステムは、ライトバック方式のキャッシュメモリを有し、このキャッシュメモリ上に確保した領域のダーティビットを操作する命令を実行可能とするものである。特に、前記命令は、メモリ解放命令MREL Rn, IMM、あるいはダーティビットクリア命令DCBDC @Rn、であり、スタック領域、あるいはヒープ領域に動的に確保したメモリ領域を解放するために使用可能なレジスタに適用するものである。

【0018】さらに、前記キャッシュメモリシステムにおいて、命令の実行を指示するプロセッサと、主記憶装置とを有し、プロセッサの指示に基づいて主記憶装置内

Commence of the Commence of th

いるため、書き戻しのためのデータ転送の電力消費を発 生せず、データ転送の経路を混雑させて性能を劣化させ

ることもない。 【0024】

【発明の実施の形態】以下、本発明の実施の形態を図面 に基づいて詳細に説明する。

【0025】まず、図1により、本発明を応用した本発明の一実施の形態の携帯電話システムの構成の一例を説明する。図1は本実施の形態の携帯電話システムを示す説明図であり、(a)は平面図、(b)は機能ブロック図をそれぞれ示す。

【0026】本実施の形態の携帯電話システムは、無線信号を送受信する無線部101、送受信信号を変調/復調処理するベースバンド回路102、信号をフィルタ処理するDSP103、アナログ/デジタル変換するA/D変換器104、信号増幅するAF回路105、音声を出力するスピーカ106、音声を入力するマイク107からなる電話機能部と、表示信号を演算処理する操作部・CPU108、表示用のLCD109、LCD109を駆動するLCDドライバ110、キー入力するキー入力部111からなる表示機能部と、全体の演算処理を司るメインCPU112、主記憶装置のROM113、RAM114、フラッシュメモリ115からなる制御機能部などから構成されている。

【0027】電話機能部における受信時は、無線信号を 無線部101で受信すると、この無線信号がベースパン ド回路102により復調処理され、さらにDSP103 によりフィルタ処理された後に、A/D変換器104に よりアナログ信号からデジタル信号に変換される。そし て、デジタル信号は、AF回路105により増幅され、 スピーカ106を通じて音声信号として出力される。

【0028】さらに、送信時は、マイク107から音声を入力すると、音声信号がAF回路105により増幅され、さらにA/D変換器104によりデジタル信号からアナログ信号に変換される。そして、DSP103によりフィルタ処理され、ベースバンド回路102により変調処理された後に、無線部101を通じて無線信号として送信される。

【0029】また、表示機能部においては、電話の情報や付加的に設けられた電子メールなどの各種情報が操作部・CPU108により演算処理され、これらの各種情報がLCDドライバ110を介してLCD109に表示される。また、キー入力部111からの入力により、各種機能の選択や、電子メールの文字入力などを行うことができる。

【0030】また、制御機能部においては、携帯電話システムの全体の演算処理がメインCPU112で実行され、このメインCPU112による各種演算処理は、たとえばROM113やフラッシュメモリ115に記憶されている各種プログラムに基づいて行われ、これらの各

の特定のアドレスが指す領域を確保して所定のプログラム処理を行い、この確保した領域をキャッシュメモリ上に確保して使用した後に、プロセッサの指示により主記憶装置に確保した領域を解放するとき、キャッシュメモリ上に確保した領域のダーティビットをクリアするように制御するものである。

【0019】すなわち、本発明は、本発明の前提技術において、主記憶装置の解放した領域に対応するキャッシュエントリのValidビットをクリアしていたのに対して、本発明では当該キャッシュエントリのDirty 10ビットをクリアする点を特徴とするものである。

【0020】これにより、Dirtyビットをクリアしたキャッシュエントリがキャッシュに残っている場合に、同一のアドレス範囲にある主記憶装置の領域を新たに確保し、この領域に最初にデータを書き込んだ時に本発明の効果が現れる。既に当該アドレス範囲に対応するキャッシュエントリがキャッシュに存在するため、ライトアロケートする必要がなく、データ転送が発生しない。よって、データ転送のための電力消費を発生せず、データ転送の経路を混雑させて性能を劣化させることも20ない。

【0021】また、DirtyビットをクリアしたキャッシュエントリがLRUアルゴリズムなどによりキャッシュから追い出される場合においても、Dirtyビットがクリアされているために、キャッシュエントリのデータを主記憶装置に書き戻す必要がなく、書き戻しのためのデータ転送が発生しない。よって、データ転送のための電力消費を発生せず、データ転送の経路を混雑させて性能を劣化させることもない。

【0022】たとえば、0xFEDCBA80から始ま 30 る16バイトのスタック領域が、前述した図11のよう にWay JのINDEX=0xA8のキャッシュエン トリに割り付けられている状態で、本領域を解放したと きに、本発明では図12(c)のように当該キャッシュ エントリのDirtyビットをOにクリアする。このキ ャッシュエントリがキャッシュの外に追い出されないう ちに0xFEDCBA84番地に0xBBBBAAAA という値を書き込むと、図12(d)の状態になる。こ のとき、当該データブロックのライトしたデータを除く 部分は主記憶装置から読み込まれることはなく、データ ブロックに元々書かれていた値である。従って、本発明 の前提技術ではライトアロケート方式により主記憶装置 からの読み込みが発生していたが、本方式ではこの読み 込みが発生しない。この読み込みにより消費される電力 を削減され、この読み込みによるデータを転送する経路 の混雑は発生せず、スループットを向上することができ

【0023】また、図12(c)の状態のキャッシュエントリがLRUアルゴリズムによりキャッシュの外に追い出されるとき、Dirtyビットが0にクリアされて 50

種演算処理のデータは随時、たとえばRAM114に格 納される。この制御機能部のメインCPU112、RO M113、RAM114からなる部分についての詳細は 後述する。

【0031】次に、図2により、前記図1のメインCP UとROMとRAMからなる部分のキャッシュメモリシ ステムの構成の一例を説明する。図2はメインCPUと ROMとRAMからなる部分のキャッシュメモリシステ ムを示すブロック図である。

【0032】図2において、キャッシュメモリシステム 10 は、プロセッサであるメインCPU1と、ROMとRA Mからなる主記憶装置2とは外部バス3を通じて相互に 接続されている。なお、図2におけるメインCPU1は 図1のメインCPU112に対応し、また図2における 主記憶装置2のROMとRAMは図1のROM113と RAM114にそれぞれ対応する。

【0033】メインCPU1には、データキャッシュ1 0、命令キャッシュ11、ライトバッファ12、制御ユ ニット13、命令バッファ14、命令デコードユニット 15、レジスタファイル16、スタックポインタ6、プ 20 ログラムカウンタ17、演算回路18、メモリデータア クセスユニット19、ライトバックユニット20、バス ユニット21が設けられ、これらの各ユニットは内部ア ドレスバス22、内部データバス23に任意に接続され ている。また、このメインCPU1のバスユニット21 は、外部アドレスバス24、外部データバス25、外部 制御信号線26を通じて、外部バス3、主記憶装置2に 接続されている。

【0034】主記憶装置2には、ROM4、RAM5が 設けられている。ROM4には、メインCPU1を制御 30 するプログラムと定数データが書き込まれている。RA M5には、静的に確保されるメモリ領域と、ヒープ領域 とスタック領域のように動的に確保されるメモリ領域が ある。

【0035】続いて、メインCPU1の動作を説明す る。プログラムカウンタ17は命令アドレスを保持し、 この命令アドレスにある命令を命令キャッシュ11から 命令バッファ14に送る。このとき、命令キャッシュ1 1は命令アドレスの内容を保持していない場合は、内部 アドレスバス22と内部データバス23、バスユニット 40 21、外部アドレスバス24と外部データバス25と外 部制御信号線26、外部バス3を経由して主記憶装置2 にあるROM4から命令を読み込み、所定の形式で保持 する。

【0036】命令バッファ14から命令を命令デコード ユニット15に転送し、命令デコード結果が制御ユニッ ト13を介して、レジスタファイル16から必要ならば データを読み出し、演算回路18、メモリデータアクセ スユニット19、ライトバックユニット20からなるデ ータパスを通り処理される。

【0037】メモリデータアクセスユニット19はデー タキャッシュ10に対してアドレスを生成し、当該アド レスのデータ読み出しをデータキャッシュ10に要求 し、データキャッシュ10は所定の処理を行い、要求さ れたデータをメモリデータアクセスユニット19に出力 する。

【0038】ライトバックユニット20は、レジスタフ アイル16、または、データキャッシュ10にデータを 出力する。出力先がデータキャッシュ10の場合は、む き込むデータ、および、書き込み先アドレスをデータキ ャッシュ10に出力する。

【0039】 [データの読み出し] データキャッシュ1 0に当該アドレスのデータがある場合は、データキャッ シュ10が要求を処理する。データキャッシュ10に当 該アドレスのデータがない場合、当該アドレスは内部ア ドレスバス22を経由してバスユニット21に転送され る。バスユニット21は、外部アドレスバス24と外部 制御信号線26に信号を出力して、外部バス3に要求を 出し、主記憶装置2にあるROM4またはRAM5から データを読み出す。読み出したデータは、外部制御信号 線26の信号により外部バス3から外部データバス25 を経由してバスユニット21に転送され、内部アドレス バス22を経由してデータキャッシュ10に読み込まれ る。データキャッシュ10は所定の形式でデータを保持 する。

【0040】 [データの書き込み] データキャッシュ1 0に書き込み先アドレスのデータが保持されている場合 は、データキャッシュ10の所定の場所にデータを書き 込む。ここでは、ライトアロケート方式のキャッシュを 仮定している。データキャッシュ10に当該アドレスの データが保持されていない場合、データキャッシュ10 にデータを保持する場所を確保し、データを書き込む。 確保した場所のサイズが書き込んだデータのサイズより 大きい場合は、書き込んだデータを除く部分を主記憶装 置2から読み込む。

【0041】ここでは、ライトバック方式のキャッシュ を仮定している。データキャッシュ10が主記憶装置2 に書き込みを要求する場合は、当該アドレスとデータ は、ライトバッファ12に一時的に保持され、それぞれ 内部アドレスバス22と内部データバス23を経由し、 バスユニット21に転送される。バスユニット21は、 外部アドレスバス24と外部データバス25と外部制御 信号線26に信号を出力して、外部バス3に要求を出 し、主記憶装置2にあるRAM5に対してデータを書き 込む。

【0042】本実施の形態では、命令キャッシュ11と データキャッシュ10が分離されている例を示している が、命令キャッシュ11とデータキャッシュ10を融合 したキャッシュにおいても、本発明を実施することがで 50 きる。

【0043】また、データキャッシュ10と主記億装置2の間に二次キャッシュがある場合、データキャッシュおよび二次キャッシュにおいても、本発明を実施することが可能である。

【0044】次に、図3により、キャッシュの構成の一例を説明する。図3はキャッシュの構成を示す説明図である

【0045】本例は、4-wayセットアソシエイティブキャッシュである。Way0, Way1, Way2, Way3の4つのWayからなり、各WayはTag45、Validビット(Vビット)46、Dirtyビット(Dビット)47、データブロック48を持つ。

【0046】1つのWayは256エントリからなり、各エントリは20ビットのTag45、1ビットのValidビット46、1ビットのDirtyビット47、128ビットのデータブロック48からなる。

【0047】ADDRESS40は、リードまたはライトを要求されているアドレスを示す。本例では32ビットである。TAG41は、本例ではADDRESS40のMSB側の20ビットである。OFFSET43は、本例ではADDRESS40のLSB側の4ビットである。INDEX42は、TAG41とOFFSET43の間にある8ビットである。

【0048】INDEX42は、インデックスデコーダ 44により、各Wayの256個のエントリのINDE X番目の1つを指す。TAG41は、キャッシュエント リにあるTag45に保持される。データブロック48 のアドレスは、キャッシュエントリにあるTag45と INDEXから復元することができる。

【0049】 Validビット46が1にセットされて 30 いる場合、当該エントリが有効であり、0にクリアされている場合は無効である。

【0050】Dirtyビット47が1にセットされている場合、データブロック48の内容が書き込みにより、主記憶装置の対応するメモリブロックより新しいデータに更新されていることを示す。Dirtyビット47が0にクリアされている場合は、一般には主記憶装置の対応するメモリブロックと同じデータを持つことを示す。キャッシュエントリをキャッシュから追い出すときに、Dirtyビット47が1にセットされていたらデータブロック48のデータを主記憶装置に書き込み、0にクリアされていたらデータブロック48のデータを主記憶装置に書き込まないで捨ててよい。

【0051】LRUビット49で、Way数をnとする と各1NDEX番目のLRUビットは、

 $n \times (n-1) / 2$ 

個のビット数からなる。本例は4wayなので、LRU ビット49は各INDEXで、

 $4 \times 3 / 2 = 6$ 

により6ビットからなる。つまり、LRUビット49は 50 するデータがキャッシュへ到達した時点でCPUへ読み

4つのWayで同じインデックス番号を持つエントリの 4つの中から選ぶペアの組み合わせは6ペアあり、各ペ アに関して新旧関係をビットで表現している。6つのビットの値からLeast-Recenty-Used (LRU)のエントリを見つけることができる。

10

【0052】キャッシュ制御ユニット50による、リードの場合の動作を図4に示し、ライトの場合の動作を図5に示す。このキャッシュ制御ユニット50は、たとえば前記図2のデータキャッシュ10の一部として構成さ10 れる。図4はキャッシュのリード動作を示すフロー図である。【0053】キャッシュのリード動作は、図4に示すように、まず開始後(ステップS100)、ステップS101において、TAGにADDRESS[31:12]、INDEXにADDRESS[11:4]、OFFSETにADDRESS[3:0]をそれぞれ代入する。

【0054】さらに、ステップS102において、各i (i=0, 1, …, N-1) で第i番目のWayのIN DEX番目のエントリに対して、Valid(i) =1 でTag==TAGのとき、 $1\rightarrow$ Hit(i)、 $i\rightarrow$  J、Valid(i) =0、あるいはValid(i) =1でTag==TAGでないとき、 $0\rightarrow$ Hit(i)、の論理条件によりHit(i)を求める。そして、ステップS103において、求めたHit(0), Hit(1), …, Hit(N-1)を論理和演算し、HITに代入する。

【0055】さらに、ステップS104において、HI Tを判別し、HIT=1、すなわち1つでもヒットしたときは、ステップS105において、第J番目のWay のINDEX番目のエントリのデータブロックのOFF SETにより指されているアドレスからアクセスサイズのデータを読み込む。本ブロックを<math>most-recently-usedにLRUフィールドをアップデートする。

【0057】さらに、ステップS108において、D(K)を判別し、D(K)=1のときは、ステップS109において、第K番目のWayのINDEX番目のエントリのTag(K)とデータブロックおよびINDEXをライトバッファに待避する。当該エントリのデータブロックのOFFSETに対応するワードからラップアラウンド方式で外部メモリからデータを読み込み、該当するデータがキャッシュへ到達した時点でCPUへ読み

出しデータを返す。本ブロックをmost-recently-usedにLRUフィールドをアップデートする。当該エントリで、 $TAG \rightarrow Tag(K)$ 、 $0 \rightarrow D(K)$ 、 $1 \rightarrow V(K)$ のそれぞれの代入を行い、ライトバッファのデータを待避してあるTag(K)およびINDEXが指すアドレスに書き込む。

[0058]  $\pm c$ ,  $z = z^2 \le 108$  c = 108 c = 108=0、あるいはステップS106におけるV(K)== 0の判別の結果がYesのときは、ステップS110に おいて、第K番目のWayのINDEX番目のエントリ 10 のデータブロックのOFFSETに対応するワードから ラップアラウンド方式で外部メモリからデータを読み込 み、該当するデータがキャッシュへ到達した時点でCP Uへ読み出しデータを返す。本ブロックをmost-r ecently-usedにLRUフィールドをアップ デートする。当該エントリで、TAG→Tag(K)、  $1 \rightarrow V$  (K)、 $0 \rightarrow D$  (K) のそれぞれの代入を行う。 【0059】キャッシュのライト動作は、図5に示すよ うに、開始後(ステップS200)、前記リード動作と 同様に、ステップS201~S203において処理した 20 後、ステップS204において、HITを判別し、HI T=1 のとき、ステップS206でV(K)==0とな るWay Kが存在せずステップS207でWayKが  $LRU \ge xyz = yz \le 208 \text{ CD}(K) = 100 \text{ CE}$  $D(K) = 0 ( \lambda F y \mathcal{I} S 2 0 8 )$  、  $\delta S N d \lambda F y \mathcal{I}$ S206であるWay Kに対しV(K)==0の判別 の結果がYesのときは、それぞれ以下のようになる。

【0060】HIT=1のときは、ステップS205において、第J番目のWayのINDEX番目のエントリのデータブロックのOFFSETにより指されているア 30ドレスにアクセスサイズのデータを書き込む。本ブロックをmost-recently-usedにLRUフィールドをアップデートする。1→D(J)の代入を行う。

【0061】ステップS208でD(K) = 1のときは、ステップS209において、第K番目のWayのINDEX番目のエントリのTag(K)とデータブロックおよびINDEXをライトバッファに待避する。当該エントリのデータブロックのOFFSETが指すアドレスにアクセスサイズのデータを書き込み、データブロッ40クの残りの部分へ外部メモリからデータを読み込む。本ブロックをmost-recently-usedにLRUフィールドをアップデートする。当該エントリで、TAG $\rightarrow$ Tag(K)、1 $\rightarrow$ D(K)、1 $\rightarrow$ V(K)のそれぞれの代入を行い、ライトバッファのデータを待避してあるTag(K)およびINDEXが指すアドレスに書き込む。

【 $0\,0\,6\,2$ 】ステップ $S\,2\,0\,8\,$ でD(K) $=\,0$ 、あるい になされているものとする。また、図 $8\,$ のステップ $S\,4$  はステップ $S\,2\,0\,6\,$ である $W\,a\,y\,K$ に対しV(K)==  $0\,9\,$ に示すようにスタック解放に使用できるようにレジ  $0\,$ の判別の結果が $Y\,e\,s\,$ のときは、ステップ $S\,2\,1\,0\,$ に  $50\,$  スタの値を解放したサイズだけ加算する機能を付け加え

おいて、第K番目のWayのINDEX番目のエントリのデータブロックのOFFSETが指すアドレスにアクセスサイズのデータを書き込み、データブロックの残りの部分へ外部メモリからデータを読み込む。本ブロックをmost-recently-usedにLRUフィールドをアップデートする。当該エントリで、TAG→Tag(K)、 $1 \rightarrow D$ (K)、 $1 \rightarrow V$ (K)のそれぞれの代入を行う。

12

【0063】本発明は、ライトバック方式かつライトアロケート方式のキャッシュで効果がある。以下において、ライトバック方式、ライトアロケート方式を説明する。

【0064】ライトバック方式は、ライトスルー方式と対になるキャッシュ制御方式である。ライトスルー方式では、あるアドレスにライトするときに、キャッシュに当該アドレスのエントリがあれば、そのデータブロックにライトするとともに主記憶装置の当該アドレスにもライトする。この場合、エントリのデータブロックの内容が主記憶装置の当該メモリブロックの内容と一致するので、Dirtyビットを1にセットする必要はない。

【0065】ライトバック方式では、あるアドレスにライトするときに、キャッシュに当該アドレスのエントリがあれば、そのデータブロックにライトするが、主記憶装置にはライトしない。この時、Dirtyビットに1をセットしてデータブロック内容が主記憶装置の当該メモリブロックの内容と一致しないことを表す。

【0066】ライトアロケート方式は、あるアドレスのライトにより当該アドレスが属するメモリブロックをキャッシュエントリに割り付ける方式である。リードした場合は、通常キャッシュエントリに割り付けるが、ライトの場合はライトアロケートかライトスルーかの選択の余地がある。ライトアロケート方式でライトの当該アドレスをキャッシュエントリに割り付けた場合、ライトした部分ではないデータを主記憶装置からキャッシュのデータブロックに読み込む。

【0067】[第1の実施の形態]本実施の形態を、図6、図7および図8により説明する。図6は動的に確保される領域のキャッシュ制御方式を示すフロー図、図7は図6と図8とで使用している変数の説明図、図8はメモリ解放命令の動作を示すフロー図である。

【0068】本実施の形態では、前述したデータキャッシュをインプリメントしたCPUを考える。ライトバック方式かつライトアロケート方式とを仮定している。

【0069】本実施の形態は、図6の動的に確保された 領域のキャッシュ制御方式のアルゴリズムを実現するた めのものである。本実施の形態の例では図6のステップ S301の判別はコンパイラまたはプログラマにより既 になされているものとする。また、図8のステップS4 09に示すようにスタック解放に使用できるようにレジ スタの値を解放したサイズだけ加算する機能を付け加え ている。

【0070】すなわち、図6において、動的に確保された領域のキャッシュ制御方式は、まず開始後(ステップS300)、ステップS301の動的に確保したか否かの判別処理において、動的に確保したメモリ領域を解放したか否かを判別し、解放していないとき(No)は終了(ステップS306)となり、解放している場合(Yes)は、ステップS302以降の処理に進む。

13

【0071】ステップS302の初期化処理において、変数S,R,E,B,MASK,SS,EEに対し、解 10 放するメモリ領域の先頭アドレス→S、解放するメモリのバイトサイズ→R、S+R(解放するメモリ領域の終了アドレス)→E、キャッシュブロックのバイトサイズ→B、NOT(B-1)→MASK、S AND MASK + {B if {S AND  $(B-1)} \neq 0$ ,0 if {SAND (B-1)} = 0} →S S、E AND MASK→EE、のそれぞれの代入を行う。ここでNOT xは32ビット幅でxのビット毎の反転を表す。x AND yは32ビット幅でxとyとのビット毎の論理積を表す。 20

【0072】さらに、ステップS303のループ終了判別処理において、SS<EEを判別し、Noのときは終了となり、Yesの場合は、ステップS304のDirtyビットクリア処理において、SS番地に対応するキャッシュエントリのDirtyビットをクリアし、そしてステップS305のアドレスカウンタアップデート処理において、SS+B→SSの代入を行った後、ステップS303からの処理を繰り返す。

【0073】 ここで、図7により、前述したS, R, E, B, MASK, SS, EEの変数を具体的に説明す 30 る。

【0074】図7においては、たとえば、解放するメモリ領域の先頭アドレスに対応する変数S=0x100 C、解放するメモリのバイトサイズに対応する変数R= 0x38、解放するメモリ領域の終了アドレスに対応する変数E=S+R=0x1000C+0x38=0x1 044、キャッシュブロックのバイトサイズに対応する 変数B=16、とした場合に、補正の変数MASK=N OT(B-1)=NOT(0xF)=0xFFFFFF F0となり、補正後の変数SS=0x1010、変数E 40 E=0x1040となる。

【0075】言い換えれば、SSはS (解放するメモリ 領域の先頭アドレス=0x100C)をB (キャッシュブロックのバイトサイズ=16)の倍数に切り上げした数、EEはE (解放するメモリ領域の終了アドレス=0x1044)をBの倍数に切り捨てした数となる。すなわち、図7において、破線のメモリ領域は他で使っているかもしれないので除外する必要がある。

【0076】本実施の形態では、スタック領域の解放を シュヒット集計処理において、求めたHit(0), H サポートする命令として、本発明を採用している。この 50 it(1), …, Hit(N-1) を論理和演算し、H

メモリ解放命令のニモニックとオペランドを以下に示 す

[0077] MREL Rn, IMM

Rn:レジスタ名

MREL R15, 32

IMM: 所定のビット数の即値

MREL命令は、図8のメモリ解放命令MREL Rn, IMMの動作のアルゴリズムに表した動作を行う。【0078】今、スタック領域を関数からリターンする直前に解放する場合を考える。スタックポインタをR15、解放したいメモリサイズを32バイトとすると、

により、R15←R15+32を実行して、スタックの32バイトの領域を解放するとともに、変更前のR15 と変更後のR15で挟まれた領域のキャッシュエントリのDirtyビットがクリアされる。Dirtyビットをクリアするときは、図8のステップS401とS402に書かれているように、解放の対象となっていないアドレスを含むキャッシュエントリは解放の対象外とするように解放の範囲を計算している。

【0079】すなわち、図8において、メモリ解放命令 MREL Rn, IMMの動作は、まず開始後(ステップS401の初期化処理において、変数S, R, E, B, MASK, SS, EEに対し、解放するメモリ領域の先頭アドレスRn $\rightarrow$ S、解放するメモリのバイトサイズIMM $\rightarrow$ R、解放するメモリ領域の終了アドレス (S+R) $\rightarrow$ E、キャッシュブロックのバイトサイズ $\rightarrow$ B、NOT (B-1) $\rightarrow$ MASK、S AND MASK + {B if {S AND (B-1)}  $\neq$ 0、0 if {S AND (B-1)} =0} $\rightarrow$ SS、E AND MASK $\rightarrow$ EE、のそれぞれの代入を行う。

【0080】さらに、ステップS402のループ終了判別処理において、SS < EEを判別し、Noのときは、ステップS409のレジスタアップデート処理において、 $Rn+1MM \rightarrow Rn$ 、の代入を行って終了(ステップS410)となり、Yesの場合は、ステップS403以降の処理に進む。

【0081】ステップS403のアドレス分解処理において、TAGにSS[31:12]、1NDEXにSS[11:4]、OFFSETにSS[3:0]をそれぞれ代入する。さらに、ステップS404のキャッシュヒット判別処理において、各i(i=0,1,…,N-1)で第i番目のWayの1NDEX番目のエントリに対して、Valid(i)=1でTag==TAGのとき、 $1\rightarrow$ Hit(i)、 $i\rightarrow$ J、Valid(i)=0、あるいはValid(i)=1でTag==TAGでないとき、 $0\rightarrow$ Hit(i)、の論理条件によりHit(i)を求める。そして、ステップS405のキャッシュヒット集計処理において、求めたHit(0),Hit(1) … Hit(N-1)を論理和確算1H

ITに代入する。

【0082】さらに、ステップS406のキャッシュヒ ット判別処理において、HITを判別し、HIT=1、 すなわち1つでもヒットしたときは、ステップS407 のDirtyビットクリア処理において、第J番目のW a yのINDEX番目のエントリに対し0→Dirty (1)の代入を行った後、ステップS408に進む。

【0083】また、HIT=0、すなわち1つもヒット しないときは、ステップS408のアドレスカウンタア ップデート処理において、SS+B→SSの代入を行っ 10 た後に、ステップS402からの処理を繰り返して実行 する。

【0084】なお、マルチタスク方式でスタック領域が タスク毎に排他的に割り付けられている場合も、本実施 の形態の例をそのまま適用できる。

【0085】 [第2の実施の形態] 本実施の形態は、前 記第1の実施の形態の変形例である。前記第1の実施の 形態で示した、MREL命令に指定するレジスタはスタ ックポインタに使われているレジスタだけとは限らな い。ヒープ領域に動的に確保したメモリ領域を解放する 20 ときに使うことができる。

【0086】具体的には、C言語の標準ライブラリ関数 にある free 関数の内部で解放した領域に対してMR EL命令を施す例がある。解放する領域の先頭アドレス をR1、解放するバイト数を100とすると、

MREL R1, 100

を実行することにより、解放した領域に対応するキャッ シュエントリのダーティビットがクリアされる。

【0087】 [第3の実施の形態] 本実施の形態を、図 9により説明する。図9はDirtyビットクリア命令 30 の動作を示すフロー図である。

【0088】本実施の形態では、前記図6のステップS 304をCPUの命令として実現したものである。Di rtyビットクリア命令のニモニックとオペランドを以 下に示す。

[0089] DCBDC @Rn

Rn: レジスタ名

DCBDC命令は、図9のDirtyビットクリア命令 DCBDC @Rnの動作のアルゴリズムに表した動作

【0090】すなわち、図9において、Dirtyビッ トクリア命令DCBDC @Rnの動作は、まず開始後 (ステップS500)、ステップS501の対象アドレ ス取得処理において、SSにRn(アドレス)を代入す

【0091】さらに、ステップS502のアドレス分解 処理において、TAGにSS [31:12]、INDE XKSS [11:4], OFFSETKSS [3:0] をそれぞれ代入する。さらに、ステップS503のキャ ッシュヒット判別処理において、各i(i=0, 1, ...)

…、N-1) で第i番目のWavのINDEX番目のエ ントリに対して、Valid (i·) = 1でTag==T AGのとき、1→Hit(i)、i→J、Valid (i) = 0,  $bar{a}$   $bar{a}$  =TAGでないとき、0→Hit(i)、の論理条件に よりHit(i)を求める。そして、ステップS504 のキャッシュヒット集計処理において、求めたHit (0), Hit (1), …, Hit (N-1) を論理和 演算し、HITに代入する。

【0092】さらに、ステップS505のキャッシュヒ ット判別処理において、HITを判別し、HIT=1、 すなわち1つでもヒットしたときは、ステップS506 のDirtyビットクリア処理において、第J番目のW a yのINDEX番目のエントリに対し0→Dirty (J)の代入を行って終了(ステップS507)とな る。また、HIT=0、すなわち1つもヒットしないと きは、終了となる。

【0093】従って、前記実施の形態によれば、主記憶 装置の解放した領域に対応するキャッシュエントリのD irtyビットをクリアすることにより、このDirt yビットをクリアしたキャッシュエントリがキャッシュ に残っている場合に、同一のアドレス範囲にある主記憶 装置の領域を新たに確保し、この領域に最初にデータを 書き込んだ時に、既に当該アドレス範囲に対応するキャ ッシュエントリがキャッシュに存在するため、ライトア ロケートする必要がなく、データ転送が発生しない。よ って、データ転送のための電力消費を発生せず、データ 転送の経路を混雑させて性能を劣化させることもない。

【0094】また、Dirtyビットをクリアしたキャ ッシュエントリがLRUアルゴリズムなどによりキャッ シュから追い出される場合においても、Dirtyビッ トがクリアされているために、キャッシュエントリのデ ータを主記憶装置に書き戻す必要がなく、書き戻しのた めのデータ転送が発生しない。よって、データ転送のた めの電力消費を発生せず、データ転送の経路を混雑させ て性能を劣化させることもない。

【0095】以上、本発明者によってなされた発明をそ の実施の形態に基づき具体的に説明したが、本発明は前 記実施の形態に限定されるものではなく、その要旨を逸 脱しない範囲で種々変更可能であることはいうまでもな い。

[0096]

【発明の効果】本願において開示される発明のうち、代 表的なものによって得られる効果を簡単に説明すれば、 以下のとおりである。

【0097】(1)ダイナミックに確保した主記憶装置 の領域を解放するときに、対応するキャッシュエントリ のDirtyビットをクリアすることで、再度同一領域 を確保した場合に、同一キャッシュエントリにライトア 50 ロケートが発生しないので、ライトアロケートによるキ

40

ャッシュメモリと主記憶装置間のデータ転送をなくすこ とが可能となる。

【0098】(2)前記(1)により、主記憶装置とキ ャッシュメモリとの間の不要なデータ転送を削減するこ とができるので、このデータ転送に伴う電力消費を削減 し、データ転送の経路の混雑を緩和してスループットを 向上させることが可能となる。

## 【図面の簡単な説明】

【図1】(a), (b) は本発明の一実施の形態の携帯 電話システムを示す説明図である。

【図2】本発明の一実施の形態において、メインCPU とROMとRAMからなる部分のキャッシュメモリシス テムを示すブロック図である。

【図3】本発明の一実施の形態において、キャッシュの 構成を示す説明図である。

【図4】本発明の一実施の形態において、キャッシュの リード動作を示すフロー図である。

【図5】本発明の一実施の形態において、キャッシュの ライト動作を示すフロー図である。

【図6】本発明の一実施の形態において、動的に確保さ 20 れる領域のキャッシュ制御方式を示すフロー図である。

【図7】本発明の一実施の形態において、変数の説明図 である。

【図8】本発明の一実施の形態において、メモリ解放命 令の動作を示すフロー図である。

【図9】本発明の一実施の形態において、Dirtyビ ットクリア命令の動作を示すフロー図である。

【図10】本発明の前提として検討した技術において、 スタックの使用方法を示す説明図である。

【図11】本発明の前提として検討した技術において、 30 101 無線部 キャッシュの状態を示す説明図である。

【図12】(a)~(d)は本発明の前提として検討し た技術および本発明の技術において、INDEXがOx A8のキャッシュエントリを示す説明図である。

### 【符号の説明】

- 1 メインCPU
- 2 主記憶装置
- 3 外部バス
- 4 ROM
- 5 RAM
- 6 スタックポインタ
- 10 データキャッシュ
- 11 命令キャッシュ
- 12 ライトバッファ
- 13 制御ユニット

- 14 命令バッファ
- 15 命令デコードユニット
- 16 レジスタファイル
- 17 プログラムカウンタ
- 18 演算回路
- 19 メモリデータアクセスユニット
- 20 ライトバックユニット
- 21 バスユニット
- 22 内部アドレスバス
- 10 23 内部データバス
  - 24 外部アドレスバス
  - 25 外部データバス
  - 26 外部制御信号線
  - 40 ADDRESS
  - 41 TAG
  - 42 INDEX
  - 43 OFFSET
  - 44 インデックスデコーダ
  - 45 Tag
  - 46 Validビット
    - 47 Dirtyビット
    - 48 データブロック
    - 49 LRUビット
    - 50 キャッシュ制御ユニット
    - 60 ADDRESS
    - 61 TAG
    - 62 INDEX
    - 63 OFFSET
    - 64 Way J
- - 102 ベースバンド回路
  - 103 DSP
  - 104 A/D変換器
  - 105 AF回路。
  - 106 スピーカ
  - 107 マイク
  - 108 操作部・CPU
  - 109 LCD
  - 110 LCDドライバ
- 40 111 キー入力部
  - 112 メインCPU
  - 113 ROM
  - 114 RAM
  - 115 フラッシュメモリ





【図2】



【図10】

图 10

主記憶装置のRAM







【図11】

図 11



【図12】



## フロントページの続き

| (51) Int. Cl. <sup>7</sup> |       | 識別記号  |   | F l     |       |       | テーマコード(参考) |
|----------------------------|-------|-------|---|---------|-------|-------|------------|
| G 0 6 F                    | 12/08 | 5 7 9 |   | G 0 6 F | 12/08 | 5 7 9 |            |
|                            | 12/12 | 5 0 3 | • |         | 12/12 | 503   |            |

. . . .

Japanese Unexamined Patent Application Publication No. 2003-223360

[0074] In FIG. 7, when: the variable S corresponding to the start address of the memory area to be released=0x100C; the variable R corresponding to the byte size of the memory to be released=0x38; the variable E corresponding to the end address of the memory area to be released=S+R=0x1000C+0x38=0x1044; and the variable B corresponding to the byte size of the cache block=16, the corrected variable MASK=NOT (B-1)=NOT(0-F)=0xFFFFFFF0; the amended variable SS=0x1010; and the variable EE=0x1040.

[0075] Stated differently, SS is a value obtained by rounding up S (the start address of the memory area to be released=0x100C) to a multiple of B (cache block byte size=16), and EE is a value obtained by rounding down E (the end address of the memory area to be released=0x1044) to a multiple of B. More specifically, it is necessary to exclude the memory areas shown broken lines in FIG. 7, as they may be in use elsewhere.

